home *** CD-ROM | disk | FTP | other *** search
/ Libris Britannia 4 / science library(b).zip / science library(b) / INFO / PCCDEMO.ZIP / COMP1.EXE / FAULT.PRS < prev    next >
Text File  |  1993-12-20  |  10KB  |  155 lines

  1.                                           àÇöïô ôÄïäæÇìô ÆÿÆôäîÆ ╧╧╬╠╬╠╬╠╬╠╡
  2.           σΣα≤⌠±Σ α±≤ΦΓδΣ
  3.  ┌──┐          
  4.  │        │     │      │
  5.  ┼─┌─┐┌ ┌ │├   ─├─ ┌─┐ │┌─┐┌─┐┌─┐┌─┐┌─┐┌─┐
  6.  │ ┌─┤│ │ ││    │  │ │ │├─┘│  ┌─┤│ ││  ├─┘    
  7.  ┴ └─┘└─┘ ┴└─┘  └─┘└─┘ ┴└─┘┴  └─┘└ └└─┘└─┘  
  8.                  
  9.                                           
  10.                                             ü√ Çπα∞ âεφφΦ≥εφ 
  11.                                    
  12.  
  13.    Before any discussion of Fault  │  with   a    baseline     premise.
  14. Tolerant  systems  can  begin  we  │  Fault   Tolerant   systems   must
  15. must     define     the     term.  │  tolerate faults.
  16. Unfortunately   ╨╥╥╥╥╥╥╥╥╥╥╥╥╥╥╥╥╥╥╥╥╥╥╥╥╥╥╥╥╥╥╥╙    This    may   seem
  17. there seem to   ╢  σα⌠δ≤-≤εδΣ±αφΓΣ Φ≥ α⌡αΦδαßδΣ █    self  evident  but
  18. be       many   ╢  εφ  ≤τΣ   πΣ≥Ω≤ε∩  ìÄû,  ß⌠≤ █    we need to examine
  19. varied inter-   ╢  α≤ α ∩±ΦΓΣ.                  █    what  this  really
  20. pretations on   ╤▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄█    means. My  defini-
  21. what   fault   tolerant  actually  │  tion   of   fault   tolerant   is
  22. means, so  let's  at  least start  │  somewhat more encompassing:
  23.  
  24.    Ç σα⌠δ≤  ≤εδΣ±αφ≤  ≥√≥≤Σ∞ ∞⌠≥≤  │  ∞ΦφΦΓε∞∩⌠≤Σ±   α±Σα≥.   In  these
  25. ßΣ    Γα∩αßδΣ    εσ    Γεφ≤Φφ⌠Φφµ  │  areas price was  a lesser concern
  26. ε∩Σ±α≤Φεφ Σ⌡Σφ Φσ α ∞αΘε± ∩ε±≤Φεφ  │  than performance  or reliability.
  27. εσ ≤τΣ ≥√≥≤Σ∞ ßΣΓε∞Σ≥  Φφε∩Σ±αßδΣ  │  As such many diverse systems were
  28. ε± ≥⌠σσΣ±≥ πα∞αµΣ.                 │  implemented    to    handle   the
  29.                                    │  inevitable   component  breakdown
  30.    Note that I  haven't said that  │  and  be  able  to  recover  or to
  31. the system  should  be  immune to  │  carry on  regardless.    With the
  32. faults, but  must  be  capable of  │  increasing  insistance  on  price
  33. continuing  near-normal operation  │  performance  and  reliability  in
  34. in the face of faults which would  │  office  systems,   some   of  the
  35. cripple a lesser system.  To that  │  mainframe  techniques  have found
  36. end  a  number  of  vendors  have  │  favour in a modified form for the
  37. spent a  lot  of  time  and money  │  PC architecture machines.
  38. developing systems  which  try to  │
  39. meet these goals.                  │     éτΦΣσδ√      α∞εφµ≥≤     ≤τΣ≥Σ
  40.                                    │  ≤ΣΓτφΦ≡⌠Σ≥   Φ≥   ≤τα≤   εσ  πΦ≥Ω
  41.                                    │  ±Σπ⌠φπαφΓ√. A system of redundant
  42.    îαφ√  εσ  ≤τΣ  σα⌠δ≤  ≤εδΣ±αφ≤  │  disks   called   æÇêâ  (Redundant
  43. ≥√≥≤Σ∞≥ ≤τα≤  ÷Σ  ≥ΣΣ  ≤επα√ τα⌡Σ  │  Array  of  Inexpensive  Disks) is
  44. ≤τΣΦ± ±εε≤≥ Φφ  ≤τΣ ∞αΦφσ±α∞Σ αφπ  │  leading the way in cost-effective
  45.  
  46. data   redundancy.      æÇêâ  was  │  implementation   as    the   disk
  47. originally defined as a system of  │  capacity  needed  is  double that
  48. 5   levels   of   redundancy   by  │  normally required.
  49. Patterson,  Gibson  and  Katz  in  │
  50. 1987.  The   æÇêâ  Implementation  │  æÇêâ   £    ≥≤ε±Σ≥   äéé   (ä±±ε±
  51. Level defines the  type of system  │  éε±±ΣΓ≤Φφµ  éεπΣ)   εφ  ±Σπ⌠φπαφ≤
  52. and covers a range of techniques.  │  π±Φ⌡Σ≥. As most  drives store ECC
  53.                                    │  data at  the  end of  each sector
  54. æÇêâ  ïΣ⌡Σδ   ¢  Φ≥   ßα≥ΦΓ  πΦ≥Ω  │  this level is hardly ever used.
  55. ∞Φ±±ε±Φφµ. By  this we  mean that  │  æÇêâ  ¥   Φ≥  α  τΦµτ-∩Σ±σε±∞αφΓΣ
  56. disks are arranged  in pairs with  │  ≥√≥≤Σ∞ ≤τα≤  ⌠≥Σ≥ ∞⌠δ≤Φ∩δΣ π±Φ⌡Σ≥
  57. data being written  to both disks  │  αφπ "≥≤±Φ∩Σ≥" ≤τΣ Φφσε±∞α≤Φεφ σε±
  58. at the same  time.   When data is  │  ΣαΓτ   ßδεΓΩ    αΓ±ε≥≥   ∞⌠δ≤Φ∩δΣ
  59. read from a disk and a disk error  │  π±Φ⌡Σ≥, αφπ  ⌠≥Σ≥ α  ∩α±Φ≤√ ßδεΓΩ
  60. results, the disk  is reported as  │  εφ α  ±Σπ⌠φπαφ≤ π±Φ⌡Σ.  The block
  61. having an  error and  the data is  │  is  then  read  from  all  drives
  62. taken from the "good" disk.  This  │  simultaneously  and   the  parity
  63. system requires 2 drives of equal  │  checked   against    the   parity
  64. capacity  to  give  you  a single  │  stripe.     This   system  offers
  65. effective drive.   Obviously cost  │  increased cost-effectiveness over
  66. becomes a  major  factor  in this  │  RAID 1  in  that  only  one extra
  67.  
  68. drive is  required  in  a system.  │  ≥ΦφµδΣ π±Φ⌡Σ.  There  is  still a
  69. This means  that the  more drives  │  separate  parity  drive  so  that
  70. you use, the  less the extra cost  │  overlapped   reads    cannot   be
  71. involved.   Most  RAID  3 systems  │  achieved as each  read requires a
  72. use  between   3  and   8  drives  │  read of  the parity  drive.  This
  73. requiring  between  50%  and  15%  │  limitation limits the use of RAID
  74. extra cost for  the parity drive.  │  and it is seldom used.
  75. In   order    to   achieve   good  │
  76. throughput  the   drive  spindles  │  æÇêâ  ƒ  ΣδΦ∞Φφα≤Σ≥  ≤τΣ ∩±εßδΣ∞≥
  77. should be synchronised, otherwise  │  ÷Φ≤τ  æÇêâ   ₧  Φφ   ≤τα≤  ∩α±Φ≤√
  78. a block read  may require waiting  │  Φφσε±∞α≤Φεφ Φ≥ ≥≤ε±Σπ Φφ α ±ε⌠φπ-
  79. for each  drive in  turn spinning  │  ±εßΦφ σα≥τΦεφ  α∞εφµ≥≤ αδδ π±Φ⌡Σ≥
  80. to the  required point.   As most  │  Φφ   ≤τΣ   α±±α√.   It   has  the
  81. drives   do   not   allow   motor  │  advantages of RAID  3 in that the
  82. synchronising,  this   system  is  │  extra   cost   is   limited,  but
  83. relatively uncommon.               │  suffers   in   performance   when
  84.                                    │  compared with RAID 1.  Still RAID
  85. æÇêâ ₧ Φ≥  ≥Φ∞Φδα± ≤ε  æÇêâ ¥ ß⌠≤  │  5  is  probably  the  most  cost-
  86. ±Σ∞ε⌡Σ≥    ≤τΣ    ≥√φΓτ±εφΦ≥α≤Φεφ  │  effective  system   in  redundant
  87. ∩±εßδΣ∞≥  ß√   ±Σ≡⌠Φ±Φφµ  α  πΦ≥Ω  │  disk technology.
  88. ßδεΓΩ  ≤ε  ßΣ   ±Σ≥≤±ΦΓ≤Σπ  ≤ε  α  │
  89.  
  90.    Does  this   mean  that  fault  │  (Uninterruptable  Power Supplies)
  91. tolerance is just RAID?  Well not  │  but more  a  sophisticated method
  92. really.  RAID  is  simply  a disk  │  of  ensuring  a  clean transition
  93. management  technology.  If  your  │  from   the   powered-on   to  the
  94. power supply  disappears  you can  │  powered-off state and back.  They
  95. forget about RAID doing thing one  │  are really  just glorified short-
  96. about  the   situation.     Fault  │  term    battery    backups   with
  97. tolerance   must   also   address  │  intelligence to  let the computer
  98. issues  of   power   supply,  CPU  │  know that it has  a short time to
  99. redundancy, etc..etc.    So let's  │  close all  its  files  and  do an
  100. have a  look at  what's available  │  orderly  shutdown   before  power
  101. there.                             │  will be removed.   When the power
  102.                                    │  comes  back  on  the  system will
  103. Åε÷Σ± ≥⌠∩∩δ√.                      │  wait until  it has  recharged its
  104.                                    │  batteries   enough   for  another
  105.    In the  main the  best form of  │  power-down  before  starting  the
  106. defence in this area  is to use a  │  computer up again.
  107. UPS.    Most  UPS  suppliers  now  │
  108. provide  low   cost  "Intelligent  │     This obviously is not ideal in
  109. UPS"    units.        These   are  │  a "non-stop"  environment but for
  110. technically        not        UPS  │  most of us it does what is really
  111.  
  112. needed,   and    that    is   the  │  file system either as standard or
  113. guaranteed  orderly  shutdown and  │  optional  features.    This  file
  114. restart.     As  more   and  more  │  system  is  very  much  like that
  115. systems   start   using   virtual  │  used in the  mainframe arena.  It
  116. memory,   more   and   more  file  │  uses   a    transaction   logging
  117. information   is   transient  and  │  mechanism  that  allows  the file
  118. subject  to  problems  at  power-  │  system to be checkpointed so that
  119. down.  This is  the next point we  │  information that is waiting to be
  120. can look at.                       │  written to  disk  when  the power
  121.                                    │  goes down  is actually  logged as
  122. àΦδΣ Æ√≥≤Σ∞≥.                      │  transactions  to   be  completed.
  123.                                    │  When the system  returns to power
  124.    There is a  lot of noise being  │  the file  system  is  returned to
  125. made about the "new" technologies  │  its  last   checkpoint   and  the
  126. of  NT  versus  UnixWare  and how  │  pending      transactions     are
  127. these  (and  other)  systems  are  │  completed.
  128. improving the  lot of multi-user,  │
  129. high-power workstation users.  It  │     This is  not  the  only "safe"
  130. just turns out that both of these  │  filesystem technology  around but
  131. offerings  (and   SCO   for  that  │  must have something going for it.
  132. matter)  all  offer  the  Veritas  │  This does not preclude the use of
  133.  
  134. a UPS  but does  make for  a much  │  Ä≤τΣ± Φ≥≥⌠Σ≥.
  135. safer system.                      │
  136.                                    │     Obviously   there   are  other
  137. éÅö.                               │  issues that  contribute  to fault
  138.                                    │  tolerance.  Some   of  these  are
  139.    The  only  other  major  point  │  security  related  and  so should
  140. that can fail  is the  CPU.  This  │  properly be  discussed elsewhere,
  141. is being addressed by a number of  │  whilst  others   relate  to  such
  142. vendors   supplying   symmetrical  │  things  as   network   access  to
  143. mulit-processing  systems.     In  │  multiple   machines   for  users.
  144. these all  CPU's  are  capable of  │  This really comes under the title
  145. running all  jobs (i.e.  there is  │  of network  management  and needs
  146. no master/slave relationship) and  │  another few pages to discuss.
  147. so   should    any   CPU   become  │
  148. unavailable  it's   jobs  can  be  │     Basically what we have seen is
  149. evenly  distributed   across  the  │  that fault-tolerance is available
  150. remaining processors.              │  on  the  desktop  NOW,  but  at a
  151.    Obviously this is an expensive  │  price.     The  level   of  fault
  152. alternative,  but   depending  on  │  tolerance you  want is controlled
  153. your  environment,  may  well  be  │  mainly by  your  wallet  and your
  154. worth the cost.                    │  environment ñ
  155.